返回教授列表
[ELEC2600]非常值得上的概率课
ZHANG Jun
課程時間:2016年Spring季
授課教授:ZHANG, Jun
我覺得教授 可爱的大陆口音教授
授课TA:ZHANG, Xuning
TA极好,是难得的好TA
這門課的Grade:Grade神
我覺得這門課
这门课比MATH2411高到不知道哪里去了,我是CSE专业的,这门课虽然是ELEC,但其内容个人觉得对整个Enginering非常有用。虽然难度不大,但一些非常实用的概念都提到了。我觉得这门课的真正意义在于,它可以被非常容易地运用到其他工科课程里,如果你搞研究,比如UROP涉及到一定量的数据处理,误差分析,你都会发现这门课给力你许多重要帮助。
先从误差的概率分析说起,在工程问题中,如果你要设计一个算法,去测量某个参数,你必须考虑采样的过程。比如我根据接受的信号强度衰减量dR测信号源距离D,dR和D其实是有一个确定的已知关系D=f(dR)的,我必须考虑dR的测量误差。小白们会说,多发几次信号取dR的平均值即可。而学了ELEC2600的同学应该会这样说:
假设:X是一个随机变量,其值为每次试验所测到的信号强度衰减量, 真实信号强度衰减量为dR,则 X=dR+N, N为随机变量,代表环境噪音。N 是iid(independent identical distrubution),即每次试验中的N互相独立
依据中心极限定理,假设N服从正态分布,平均值为0,方差为s^2
那么假设我们做了m次试验,结果为X1,X2,...Xm
定义 L(d)=P(D=d|X1,X2,X3,...Xm) 就是在测得结果为X1,...Xm的条件下,距离D=d的概率,我们要找到一个d使得L(d)最大
由于D=f(dR)
定义L(dR')=P(dR=dR'|X1,X2,X3,...Xm) 就是在测得结果为X1,...Xm的条件下,距离dR=dR'的概率,我们要找到一个dR'使得L(dR')最大,这个问题等价为上一个问题。
L(dR')=P(dR=dR'|X1,...,Xm)=P(X1,...,Xm|dR=dR')P(dR=dR')/P(X1,...,Xm),由于P(X1,...,Xm)与dR'无关
最大化L(dR')等价于最大化P(X1,...,Xm|dR=dR')P(dR=dR'),由于根据假设Xi=dR+Ni,所以在dR=dR'的条件下
P(X1,...,Xm|dR=dR')P(dR=dR')=P(X1=dR'+N1,X2=dR'+N2,...,Xm=dR'+Nm)P(dR=dR')=P(N1=X1-dR',...,Nm=Xm-dR')P(dR=dR'),由于假设了N 是iid,所以
P(N1=X1-dR',...,Nm=Xm-dR')P(dR=dR')=P(N1=X1-dR')P(N2=X1-dR')...P(Nm=X1-dR')P(dR=dR'),由于P(dR=dR')是常数,因为在没有任何条件的情况下,dR等于任何数的情况相同。所以,最大化L(dR')等价于最大化P(N1=X1-dR')P(N2=X1-dR')...P(Nm=Xm-dR')
根据假设P(Ni=Xi-dR')=1/((2pi)^0.5*s)*exp(-(Xi-dR')^2/(2s^2)) 写的比较难看,总之就是高斯分布那条啦。
两边取自然对数得
ln(L(dR'))=ln(P(N1=X1-dR'))+...+P(Nm=Xm-dR')=mln(1/((2pi)^0.5*s))-((X1-dR')^2/(2s^2)+...+(Xm-dR')^2/(2s^2))
所以我们要最小化(X1-dR')^2+...+(Xm-dR')^2=X1^2+...Xm^2+mdR'^2-(2dR'X1+2dR'X2+...+2dR'Xm)
ln(L(dR')对dR'求导并令导数为0得2mdR'-2X1-2X2-...-2Xm=0 =>dR'=(X1+X2+...+Xm)/m
到这了,ELEC2600的同学放下笔,微笑着说,当取dR'=(X1+X2+...+Xm)/m时,dR'是真实值的概率最高,小白正要一巴掌扇过去的时候,
ELEC2600的同学又拿起了笔说,我再帮你推推m要多大的时候,我们有99%的信心说|(X1+X2+...+Xm)/m-dR|<0.01
还是假设N服从正态分布 N~N(0,s^2)
令S(m)=(X1+X2+...+Xm)则S(m)=(mdR+N1+N2+...+Nm)
求S(m)的期望E(S(m))=E(mdR+N1+N2+...+Nm)=mdR+E(N1)+...+E(Nm)=mdR
求S(m)的方差var(S(m))=var(mdR+N1+N2+...+Nm)=var(N1+N2+...+Nm)由于根据假设Ni 为iid COV(Ni,Nj)=0 (i!=j)
所以var(S(m))=var(N1)+...+var(Nm)=m*s^2
令M(m)=S(m)/m
则E(M(m))=dR, var(M(m))=s^2/m
利用中心极限定理,M(m)是一系列iid分布的叠加,那它自己接近正态分布,所以M(m)~N(dR,s^2/m)
我们要求
P(|(X1+X2+...+Xm)/m-dR|<0.01)>=0.99
P(|M(m)-dR|<0.01)=P(-0.01<m(m)-dR<0.01)
由于(M(m)-dR)/(s/m^0.5)~N(0,1) 我们可以用Qfunction去解,即
P(-0.01/(s/m^0.5)<(M(m)-dR)/(s/m^0.5)<0.01/(s/m^0.5))=1-2*Q(0.01/(s/m^0.5))))>=0.99
Q(0.01/(s/m^0.5)))<=0.005 近似地0.01/(s/m^0.5))>=2.65
到这了,ELEC2600的同学放下笔,微笑着说, 所以,m>=(70225s^2), 即样本数为噪音方差的70225倍的时候可以满足刚才的要求,
小白正要一巴掌扇过去的时候,ELEC2600的同学又拿起了笔说我们用了中心极限定理,假设了M(m)服从正态分布,但如果假设不成立,M(m)不服从正态分布呢?我们来看看当M(m)为任意分布的时候,m的取值:
还是有E(M(m))=dR,var(M(m))=s^2/m
我们要求
P(|(X1+X2+...+Xm)/m-dR|<0.01)>=0.99
根据ChebyshevInequality
P(|M(m)-dR|>=a)<=s^2/m/(a^2)
P(|M(m)-dR|1-s^2/m/(a^2)
所以P(|M(m)-dR|<0.01)>1-s^2/0.0001m>=0.99
m>=1000000s^2
到这了,ELEC2600的同学放下笔,微笑着说, 所以,m>=(1000000s^2), 即样本数为噪音方差的1000000倍的时候可以满足刚才的要求,
小白崩溃,立志要上ELEC2600
当然上面只涉及到ELEC2600的一小部分,也是比较有用的一部分,其中的maximizelikelihood思想广泛运用在机械学习领域中。
如果我的推导有误,欢迎指正哈!
ELEC2600的课本也是非常理想的习题资源,可以当练习刷。考试可以带cheatsheet,当然理解例题的思路十分重要。
这个课的TA非常好,每次tuto都能见识到很多超好用的技巧,非常值得上,我有时一周两节相同的tuto都跑去听,那些习题很有代表性,值得反复捉摸。教授讲课也还可以,会做很多课堂推导,只是语气比较沉闷,我有几次睡着了。。。当然课件讲的比较清晰,课后可以补。作业量比较大,但占的比重少,偶尔错一点点也没太大关系。